Predicción pre-intervención de efectos secundarios en steering de SAE
Aprende a predecir los efectos secundarios del steering con autoencoders dispersos. Un estudio en GPT-2, Pythia, Gemma y Llama para optimizar tu intervención.
Aprende a predecir los efectos secundarios del steering con autoencoders dispersos. Un estudio en GPT-2, Pythia, Gemma y Llama para optimizar tu intervención.